Big Data and Analytics Basic Statistical Functions (mean, median, sd, var) গাইড ও নোট

333

আর প্রোগ্রামিং ভাষায় স্ট্যাটিস্টিক্যাল ফাংশনস ব্যবহার করে ডেটার উপর বিভিন্ন পরিসংখ্যানগত বিশ্লেষণ করা হয়। এই ফাংশনগুলো ডেটা সেটের গড়, মধ্যম, স্ট্যান্ডার্ড ডেভিয়েশন, এবং ভ্যারিয়েন্স হিসাব করতে ব্যবহৃত হয়। এগুলি ডেটা সায়েন্স, পরিসংখ্যান বিশ্লেষণ এবং গবেষণার জন্য অত্যন্ত গুরুত্বপূর্ণ।

এখানে, আমরা mean, median, sd, এবং var ফাংশনগুলোর ব্যবহার সম্পর্কে বিস্তারিত আলোচনা করব।


১. mean() - গড় (Mean)

Mean বা গড় হলো সমস্ত মানের যোগফল এবং তাদের সংখ্যা দিয়ে ভাগ করার ফল। এটি একটি সাধারণ পরিসংখ্যানিক পরিমাপ যা ডেটার কেন্দ্রীকরণ বা কেন্দ্রীয় প্রবণতা (Central Tendency) নির্ধারণ করে।

ব্যবহার:

# ডেটা তৈরি করা
data <- c(1, 2, 3, 4, 5)

# গড় মান বের করা
mean_value <- mean(data)
print(mean_value)  # আউটপুট: 3

এখানে, mean() ফাংশনটি ডেটার গড় মান বের করে, যেটি এখানে ৩। এটি ডেটা সেটের প্রতিটি উপাদানকে একত্রে যোগ করে, এবং তাদের সংখ্যা দিয়ে ভাগ করে গড় মান নির্ধারণ করে।


২. median() - মধ্যম (Median)

Median হলো ডেটার মাঝের মান, যা সমস্ত মান ছোট থেকে বড় বা বড় থেকে ছোট করে সাজানোর পর মাঝের অবস্থানে থাকে। এটি গড়ের তুলনায় আউটলিয়ার বা অস্বাভাবিক মানের প্রভাব থেকে কম প্রভাবিত হয়।

ব্যবহার:

# ডেটা তৈরি করা
data <- c(1, 2, 3, 4, 5)

# মধ্যম মান বের করা
median_value <- median(data)
print(median_value)  # আউটপুট: 3

এখানে, median() ফাংশনটি ডেটার মধ্যম মান বের করে। যদি ডেটার উপাদানের সংখ্যা বিজোড় হয়, তাহলে মাঝের মান হবে; আর যদি তারিখটি বিজোড় হয়, তাহলে মধ্যের দুটি মানের গড় হবে।


৩. sd() - স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation)

Standard Deviation (SD) হলো একটি পরিমাপ যা ডেটার মানগুলির গড় থেকে কতটুকু বিচ্যুতি হচ্ছে তা নির্দেশ করে। এটি ডেটার ছড়িয়ে পড়া বা বৈচিত্র্য (Dispersion) সম্পর্কে ধারণা দেয়। কম স্ট্যান্ডার্ড ডেভিয়েশন মানে ডেটা সেটের মানগুলো গড়ের কাছাকাছি এবং বেশি স্ট্যান্ডার্ড ডেভিয়েশন মানে ডেটা সেটের মানগুলো বেশি ছড়িয়ে পড়েছে।

ব্যবহার:

# ডেটা তৈরি করা
data <- c(1, 2, 3, 4, 5)

# স্ট্যান্ডার্ড ডেভিয়েশন বের করা
sd_value <- sd(data)
print(sd_value)  # আউটপুট: 1.58

এখানে, sd() ফাংশনটি ডেটার স্ট্যান্ডার্ড ডেভিয়েশন বের করে, যা গড় থেকে বিচ্যুতি সম্পর্কে ধারণা দেয়।


৪. var() - ভ্যারিয়েন্স (Variance)

Variance হলো স্ট্যান্ডার্ড ডেভিয়েশনের বর্গ এবং এটি ডেটার ছড়িয়ে পড়া বা বৈচিত্র্য সম্পর্কে ধারণা দেয়। এটি স্ট্যান্ডার্ড ডেভিয়েশনের মতোই ডেটার গড় থেকে বিচ্যুতি পরিমাপ করে, তবে এটি মূলত সংখ্যার বর্গমূল হিসাবে কাজ করে।

ব্যবহার:

# ডেটা তৈরি করা
data <- c(1, 2, 3, 4, 5)

# ভ্যারিয়েন্স বের করা
var_value <- var(data)
print(var_value)  # আউটপুট: 2.5

এখানে, var() ফাংশনটি ডেটার ভ্যারিয়েন্স বের করে। এটি স্ট্যান্ডার্ড ডেভিয়েশনের মতো একটি পরিসংখ্যানিক পরিমাপ, তবে এটি স্ট্যান্ডার্ড ডেভিয়েশনের বর্গ।


সারাংশ

আর প্রোগ্রামিং-এ mean, median, sd, এবং var ফাংশনগুলো ডেটার মৌলিক পরিসংখ্যানিক বিশ্লেষণ করার জন্য অত্যন্ত গুরুত্বপূর্ণ।

  • mean(): ডেটার গড় মান নির্ধারণ করে।
  • median(): ডেটার মধ্যম মান বের করে, যা গড়ের তুলনায় আউটলিয়ারের প্রভাব কমিয়ে আনে।
  • sd(): ডেটার মানগুলোর গড় থেকে বিচ্যুতি বা ছড়িয়ে পড়া পরিমাপ করে।
  • var(): স্ট্যান্ডার্ড ডেভিয়েশনের বর্গ এবং ডেটার বৈচিত্র্য বুঝতে সাহায্য করে।

এই পরিসংখ্যানিক পরিমাপগুলো ডেটার প্রবণতা এবং বৈচিত্র্য বিশ্লেষণ করতে সহায়ক।

Content added By
Promotion

Are you sure to start over?

Loading...